@屈折 vs. 派生:在分布式向量空间中的区分 (Inflection vs. Derivation in a Distributional Vector Space)
核心观点
核心问题: 形态学中的一个经典论断——“屈折比派生在语义上更规则”(inflection is "semantically more regular" than derivation)——是否能得到大规模经验数据的支持?
本文的重新阐释: 将“规则性”操作化为**“对比的稳定性” (Stability of Contrast)。假设屈折关系带来的语义和句法对比,比派生关系带来的对比更加稳定一致。
方法: 使用分布式语义模型 (DSM),将词对之间的“对比”建模为“偏移向量” (Offset Vectors)。通过比较不同关系下偏移向量的方差**,来量化“对比的稳定性”。
结论: 基于法语数据的实证研究有力地证实了该假设。屈折关系的偏移向量确实比派生关系更稳定(即方差更小),为屈折和派生的系统性差异提供了强有力的定量证据。
1. 介绍 (Introduction)
- 研究背景: 屈折与派生的关系
- 形态学领域的长期辩论:两者是本质相同(连续统),还是截然不同(离散划分)?
- 普遍问题: 讨论多集中于概念论证,缺乏大规模的、可操作化的经验证据。
- 本文聚焦的区分标准: 语义规则性 (Semantic Regularity)
- 传统直觉:
- 屈折 (Inflection): 句法语义效果稳定。
books
之于book
≈cats
之于cat
(复数关系稳定)
- 派生 (Derivation): 效果不稳定,更容易特化 (lexicalization)。
delegation
之于delegate
≠election
之于elect
(施事名词的意义漂移)
- 屈折 (Inflection): 句法语义效果稳定。
- 本文的术语: 对比的稳定性 (Stability of Contrast)
- 核心假设: 同一种屈折关系连接的词对,其对比比同一种派生关系连接的词对更相似。
- 目标: 提出一个可操作化的定义,并进行大规模检验。
- 传统直觉:
2. 概念动机 (Conceptual Motivation)
- 屈折与派生的经验区分标准 (Stump, 1998):
(a)
词义/词性改变 → 派生(b)
句法决定 → 屈折(c)
能产性 (Productivity) → 屈折 > 派生(d)
语义规则性 (Semantic Regularity) → 屈折 > 派生(e)
封闭性 (Closure) → 屈折形式不能再派生
- 传统标准的问题:
- 多为倾向性,而非绝对标准。
- 难以操作化(如“词汇意义”的界定)。
- 无法提供清晰的界线。
- 聚焦于“对比的稳定性”:
- 重新定义 (2):
通过相同屈折关系关联的词对,其形态句法和语义对比,比通过相同派生关系关联的词对的对比,彼此之间更相似。
- 关键澄清:
- 对比单位: 形态关系 (morphological relation),而非形态范畴。比较的是
单数-复数
关系与动词-施事名词
关系。 - 对比内容: 囊括了词对之间的所有句法语义差异,而非仅语义。
- 对比焦点: 不是词对的相似度,而是差异的稳定性。我们不声称屈折词对更相似,而是声称它们的差异方式更一致。
- 对比单位: 形态关系 (morphological relation),而非形态范畴。比较的是
- 重新定义 (2):
3. 方法 (Method)
- 理论基础: 分布式假设 (Distributional Hypothesis)
- "You shall know a word by the company it keeps." (J.R. Firth)
- 词的(句法、语义)属性反映在其上下文分布中。
- 向量空间模型 (Vector Space Models):
- 词向量: 词的分布信息被编码为一个高维向量。
- 关系建模: 偏移向量 (Offset Vector)
- 词对
之间的关系/对比,可以由它们的向量差来表示: 。 - 类比:
king
-man
+woman
≈queen
- 词对
- “对比稳定性”的操作化定义:
- 思路: 如果一种形态关系(如复数)是稳定的,那么所有表达该关系的偏移向量(如
, , ...)应该彼此非常相似。 - 量化指标: 偏移向量集合的方差 (Variance of the offset vectors)。
- 计算同一关系下,每个具体词对的偏移向量,与其平均偏移向量之间的欧氏距离。
- 方差越小,关系越稳定。
- 思路: 如果一种形态关系(如复数)是稳定的,那么所有表达该关系的偏移向量(如
- 实证设置:
- 语言: 法语
- 语料库: FRWAC (大型网络语料库)
- 模型:
word2vec
CBOW 模型 (400维向量) - 核心比较单元: 词形 (word forms),而非词位 (lexemes)。
4. 实证结果 (Empirical Results)
- 实验设计: 受控的成对比较
- 构建三元组 (Triples):
(pivot, inflectional_comparandum, derivational_comparandum)
- 例子:
(chanter, chantait, chanteur)
chanter
(唱,动词不定式) - 中心词 (pivot)chantait
(他/她过去常唱) - 屈折对比词chanteur
(歌手) - 派生对比词
- 例子:
- 计算偏移向量:
- 屈折偏移:
- 派生偏移:
- 屈折偏移:
- 控制变量: 严格控制
inflectional_comparandum
和derivational_comparandum
的词频,确保向量质量可比。 - 统计检验: 对每个屈折-派生关系对,收集100个这样的三元组,形成两组偏移向量,然后使用配对 t 检验比较两组向量到各自均值向量的距离(即方差)。
- 构建三元组 (Triples):
- 数据筛选:
- 从大规模法语词库 (Démonette, GLÀFF) 中提取词族。
- 最终筛选出 174 个满足严格频率匹配条件的屈折-派生关系对。
- 核心发现:
- 在 所有 174 个 被检验的系统中,派生关系的偏移向量方差都高于屈折关系。
- 这种差异在其中 172 个系统中达到了高度统计显著 (
)。 - 效应量中等 (平均 Cohen's d ≈ 0.58)。
- 结论: 实验结果强有力地证实,屈折对比比派生对比更稳定。
5. 讨论 (Discussion)
- 对理论的贡献:
- 为屈折和派生之间存在系统性差异的理论观点,提供了坚实的定量证据。
- 连续统 vs. 离散划分:
- 虽然结果支持两者有差异,但这不必然意味着两者是绝对离散的。
- 通过绘制所有屈折和派生关系的偏移向量方差分布图 (Figure 3),可以发现:
- 两个分布有明显不同的中心点(屈折更稳定)。
- 但两个分布有重叠,且整体上可能形成一个连续的稳定性尺度,不存在一个清晰的“分割点”。
- 未来研究方向:
- 形态特征排序: 是否能根据语义可预测性(即稳定性)对所有形态关系(屈折和派生)进行排序?
- 跨语言比较: 一种在某语言中是屈折的关系(如时态),在另一语言中可能是派生,这种语法地位的差异是否会反映在对比稳定性上?
- 模糊地带: 那些在屈折-派生划分上存在争议的现象(如分词、动名词),它们在稳定性尺度上会处于什么位置?